重磅！13篇基于Anchor free的目标检测方法

极市平台 2021-09-20

以下文章来源于CVer ，作者黄浴

极市正在推出CVPR2019的专题直播分享会，邀请CVPR2019的论文作者进行线上直播，分享优秀的科研工作和技术干货，也欢迎各位小伙伴自荐或推荐优秀的CVPR论文作者到极市进行技术分享~
本周四（5月30日）晚，帝国理工学院计算机系IBUG组博士生邓健康，将为我们分享：ArcFace 构建高效的人脸识别系统（CVPR2019），公众号回复“42”即可获取直播详情。

作者 | 黄浴

本文授权转载自公众号CVer

原文 | https://zhuanlan.zhihu.com/p/64563186

作者简介：黄浴

职业经历

奇点汽车美研中心 · 首席科学家兼总裁
上海大学 · 兼职教授
百度美研 · 软件架构师
英特尔总部 · 架构师

教育经历

伊利诺伊大学厄本那香槟分校 (UIUC) · 计算机视觉
埃尔朗根-纽伦堡大学 · 模式识别
清华大学 · 人机交互/多媒体

个人简介

专业领域：图像视频处理，计算摄影，机器学习，计算机视觉和数据可视化。
从事的工业界：安防，多媒体，电讯，半导体，互联网。

个人信息来源：

https://www.zhihu.com/people/yuhuang2019/activities

正文

感觉是回归吧，以前是没有anchor的，现在觉得还是去掉anchor（“锚”？）好，主要是灵活性强，今后硬件芯片兼容性好。

回顾一下，目标检测分单步和两步，单步法的历史中从SSD和YOLO-2开始引入锚框(anchor box)，而两步法直到Faster RCNN才开始采用“锚”的想法。

什么是锚框呢?其实就是固定的参考框。锚框的出现，使得训练时可以预设一组不同尺度不同位置的锚框，覆盖几乎所有位置和尺度，每个锚框负责检测与其区域交叉比(intersection over union, IOU)大于阈值的目标，这样问题就转换为"这个锚框中有没有认识的目标，目标框偏离锚框多远"的问题。

UnitBox: An Advanced Object Detection Network
Densebox
Yolo-1/（-2/3）
CornerNet
ExtremeNet
FSAF: Feature Selective Anchor-Free
FCOS: Fully Convolutional One-Stage
FoveaBox
Center and Scale Prediction: A Box-free Approach for Object Detection
Region Proposal by Guided Anchoring(GA-RPN)
CenterNet: Objects as Points
CenterNet: Keypoint Triplets for Object Detection
CornerNet-Lite: Efficient Keypoint Based Object Detection

UnitBox: An Advanced Object Detection Network

主要思想：Intersection over Union (IoU) loss function for bounding box prediction

架构

IoU loss vs l2 loss

l2 loss和IoU loss 结果比较

DenseBox: Unifying Landmark Localization and Object Detection

基本思想：直接预测目标框和目标类。

系统流水线:

1) 图像金字塔.

2) 类似编码器-解码器.

3) feature map 转换成 bounding boxes，加NMS处理。

DenseBox

DenseBox with landmark localization

You Only Look Once (YOLO) for Object Detection

检测定义为一个张量的回归问题，直接通过张量的估计得到目标框位置和类别概率。

注：之后YOLO-2/3版采用了anchor方法，这里也加在一起参考。

YOLO9000: Better, Faster, Stronger

Darknet-19: 19 convolutional layers and 5 max-pooling layers

WordTree with 9418 classes

Combining datasets using WordTree hierarchy

Bounding boxes with dimension priors and location prediction

Clustering box dimensions on VOC and COCO

结果

YOLOv3: An Incremental Improvement

Darknet-53

CornerNet: Detecting Objects as Paired Keypoints

把检测目标框变成一对关键点的问题，即左上角和右下角，这样就消除了锚框的设计麻烦。另外，采用的角点池化（corner pooling）技术帮助CNN更好地定位角点位置。下图给出了系统流程图：CNN模型输出两个关键点的各自热图（heatmap），同时各跟一个嵌入向量。同一个目标的角点，训练后的神经网络会预测类似的嵌入。

Detect an object as a pair of bounding box corners grouped together

下图是定位的角点池化技术：每个特征图通道沿着两个方向取最大值，然后求和。

Corner pooling

“Ground-truth” heatmaps for training.

测试流程图：沙漏型的核心网络的后面跟着两个预测模块定位和聚类焦点。

定义loss函数聚类corner：push和pull

ExtremeNet: Bottom-up Object Detection by Grouping Extreme and Center Points

主要思想：也是将目标检测变成了纯粹关键点估计问题，包括目标的4个extreme points 和1个中心点，将这几何校准的5个点组成一个目标框。

下图是系统流程图：类似CornerNet，对每个目标类，CNN网络预测5个热图，只有几何中心的热图响应足够大才会生成目标框。

The network predicts four extreme point heatmaps and one center heatmap for each category

如下是模型的测试流程图：输入图像得到5个C-通道热图，4个2-通道类别无关的偏差图（offset map）。热图是通过加权逐像素逻辑回归（logistic regression）训练得到，. 而偏差图则是由平滑L1 损失函数训练的。

下图是中心分组（Center grouping）算法：输入是5个热图，输出则是带有可信度的目标框。

下图是边缘聚集的结果：当一个边缘的多个点都成为extreme point，可见边缘聚集使中间像素的可信度得到增大。

FSAF: Feature Selective Anchor-Free Module

一作直播：CMU诸宸辰:基于Anchor-free特征选择模块的单阶目标检测(回放视频+PPT)

主要思想：基于特征金字塔网络(feature pyramid structure，FPN)的在线特征选择能力，在训练时可以动态分配每个实例到最适合的特征层，在推理时能够和带锚的模块分支一起工作，最后并行地输出预测。

anchor-based method

FSAF module plugged into anchor-based detection methods

下图展示一个特征层中的实例监督信号，其中两个损失函数：分类的focal loss 和目标框回归的IoU loss 。

Supervision signals for an instance in one feature level of the anchor-free branches

在线特征选择的操作如图：每个实例通过无锚框的所有层计算出所有有效区域的分类损失和回归损失，在最小损失的那层构建该实例的监督信号。

Online feature selection mechanism

Network architecture of RetinaNet with FSAF module

FCOS: Fully Convolutional One-Stage Object Detection

相关解读：FCOS: 最新的one-stage逐像素目标检测算法

主要思想：是分割，不需要锚框也不需要区域提议。这样，避免了锚框在模型训练中涉及的重叠计算和性能敏感的参数设计环。

FCOS中定义了一个新损失函数“中心度（centerness）”，如下图（红和蓝对应 1 和 0，其他颜色位于其中）。

The network architecture of FCOS

结果

FoveaBox: Beyond Anchor-based Object Detector

相关解读：FoveaBox，超越Anchor-Based的检测器

主要思想：直接学习目标存在的概率和目标框的坐标位置，其中包括预测类别相关的语义图和生成类别无关的候选目标框，目标框的大小和特征金字塔的表示相关（如图所示）。

FoveaBox object detector

FoveaNet的网络结构如图，一个基于ResNet的特征金字塔网络（FPN）送入两个子网络, 一个做分类，一个做预测。

FoveaBox network architecture

结果

Region Proposal by Guided Anchoring (GA-RPN)

利用语义特征指导抛锚，称为指导性的抛锚。一起预测感兴趣目标的中心位置以及不同位置的尺度和长宽比。有代码： //github.com/open-mmlab/m.

GA-RPN

对特征金字塔的每个输出特征图，采用带有两个分支的锚框生成模块分别预测锚位置和形状。一个特征适应模块对原始特征图处理，使其更能体现锚的形状。

Anchor location target

采用多级特征，根据其尺度把真实目标（ground truth objects）提供给不同特征级，相应定义 CR, IR和OR 。

性能比较

CenterNet: Objects as Points.

CenterNet: Object Detection with Keypoint Triplets

主要思想：基于前面提到的CornerNet，检测目标变成三个关键点的估计（a triplet of keypoints）。

架构图：一个核心网络执行级联角点池化（cascade corner pooling）和中心点池化（center pooling ），输出两个角点热图和一个中心关键点热图；和CornerNet类似，一对检测的角点和嵌入用来检测潜在目标框；然后检测的中心关键点确定最终的框位置。

CenterNet

(a) Center pooling. (b) Corner pooling. (c) Cascade corner pooling

下图给出角点池化和中心点池化的结构图。

center pooling module (a) cascade top corner pooling module (b)

CornerNet-Lite: Efficient Keypoint Based Object Detection

CornerNet-Lite：CornerNet-Saccade（attention mechanism）+ CornerNet-Squeeze

CornerNet-Saccade：缩小的图像中产生的目标框，加上attention map，预测一组可能的目标位置。在每个位置附近取一个小区域，检测目标。对检测的目标位置排序，取前k个，运行NMS。

CornerNet-Saccade

模型加速：SqueezeNet/MobileNets for CornerNet-Squeeze

替换3 × 3 kernels 成 1 × 1 kernels;
减少输入通道 to 3 × 3 kernels;
下采样.

结果

Center and Scale Prediction: A Box-free Approach for Object Detection

主要思想是：目标中心点，语义抽象。

目标检测变成一个直接的中心和尺度预测。最后卷积有两个通道，一个是关于中心位置的热图，另一个是中心的尺度图。

CSP (Center and Scale Prediction) detector

包括两个成分：特征提取和检测。前者把不同分辨率的特征图连在一起，后者是卷积层和两个预测层，分别对应中心位置和尺度大小。

architecture of CSP

*延伸阅读

点击左下角“阅读原文”，即可申请加入极市目标跟踪、目标检测、工业检测、人脸方向、视觉竞赛等技术交流群，更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~

觉得有用麻烦给个看啦~

：，。视频小程序赞，轻点两下取消赞在看，轻点两下取消在看

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

何炅突然高调官宣喜讯，网友恭喜：30年了，终于等到这一天！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

重磅！13篇基于Anchor free的目标检测方法

UnitBox: An Advanced Object Detection Network

DenseBox: Unifying Landmark Localization and Object Detection

You Only Look Once (YOLO) for Object Detection

YOLO9000: Better, Faster, Stronger

YOLOv3: An Incremental Improvement

CornerNet: Detecting Objects as Paired Keypoints

ExtremeNet: Bottom-up Object Detection by Grouping Extreme and Center Points

FSAF: Feature Selective Anchor-Free Module

一作直播：CMU诸宸辰:基于Anchor-free特征选择模块的单阶目标检测(回放视频+PPT)

FCOS: Fully Convolutional One-Stage Object Detection

FoveaBox: Beyond Anchor-based Object Detector

Region Proposal by Guided Anchoring (GA-RPN)

CenterNet: Objects as Points.

CenterNet: Object Detection with Keypoint Triplets

CornerNet-Lite: Efficient Keypoint Based Object Detection

Center and Scale Prediction: A Box-free Approach for Object Detection

目标检测：Anchor-Free时代

继往开来！目标检测二十年技术综述

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下 一生守护”慈善项目捐赠仪式圆满举行！

何炅突然高调官宣喜讯，网友恭喜：30年了，终于等到这一天！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

生成图片，分享到微信朋友圈

重磅！13篇基于Anchor free的目标检测方法

UnitBox: An Advanced Object Detection Network

DenseBox: Unifying Landmark Localization and Object Detection

You Only Look Once (YOLO) for Object Detection

YOLO9000: Better, Faster, Stronger

YOLOv3: An Incremental Improvement

CornerNet: Detecting Objects as Paired Keypoints

ExtremeNet: Bottom-up Object Detection by Grouping Extreme and Center Points

FSAF: Feature Selective Anchor-Free Module

一作直播：CMU诸宸辰:基于Anchor-free特征选择模块的单阶目标检测(回放视频+PPT)

FCOS: Fully Convolutional One-Stage Object Detection

FoveaBox: Beyond Anchor-based Object Detector

Region Proposal by Guided Anchoring (GA-RPN)

CenterNet: Objects as Points.

CenterNet: Object Detection with Keypoint Triplets

CornerNet-Lite: Efficient Keypoint Based Object Detection

Center and Scale Prediction: A Box-free Approach for Object Detection

目标检测：Anchor-Free时代

继往开来！目标检测二十年技术综述

您可能也对以下帖子感兴趣

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！